Correlación no implica causalidad… ¿o sí?
Empezamos con ustedes: ¿por qué motivos?
Algunas razones:
Históricamente, la causalidad inversa y el sesgo causado por variables omitidas han sido problemáticos para muchas investigaciones de las ciencias sociales que buscan hacer afirmaciones causales.
Recientemente, el enfoque contrafactual ha sido adoptado en las ciencias sociales como marco para la inferencia causal.
Esto representa un gran cambio en la investigación:
Proporción de artículos publicados que utilizan experimentos en las dos principales revistas de sociología, economía y ciencias políticas (1990-2020). Fuente: Mize and Manago (2022)
Proporción de artículos publicados que utilizan experimentos en sociología, ciencias políticas y economía según el tipo de método experimental utilizado (1990-2020). Fuente: Mize and Manago (2022)
En el enfoque contrafactual: “Si X no hubiera ocurrido, entonces Y no habría ocurrido.”
Los experimentos nos ayudan a aprender acerca de las afirmaciones contrafactuales y basadas en la manipulación de la causalidad.
No es erróneo conceptualizar “causa” de otra manera. Pero ha sido productivo trabajar en este marco hipotético (Brady 2008).
“X causa Y” no implica necesariamente que W y V no causen Y: X es parte de la historia, no toda la historia. (No se necesita conocer la historia completa para saber si X causa Y).
“X causa Y” requiere un contexto: los fósforos causan la llama pero requieren oxígeno; las aulas pequeñas mejoran los resultados de las pruebas, pero requieren profesores experimentados y financiación (Cartwright and Hardie 2012).
“X causa Y” puede significar “Si X ocurre, la probabilidad de Y es mayor que sin que X ocurra”. o “Sin que X ocurra no hay Y”. Cualquiera de las dos afirmaciones es compatible con la idea contrafactual.
No es necesario conocer el mecanismo para establecer que X causa Y. El mecanismo puede ser complejo y puede involucrar probabilidad: X causa Y a veces debido a A y a veces debido a B.
La causalidad contrafactual no requiere “una secuencia espacio-temporal continua de intermediarios causales”
Correlación casi nunca es igual a causalidad.
Un amigo suyo dice que tomar equinácea (un remedio tradicional) reduce la duración de los resfriados.
Si adoptamos un enfoque contrafactual, ¿qué nos dice implícitamente esta afirmación sobre el contrafactual? ¿Qué otros contrafactuales podrían ser posibles y por qué?
El contrafactual implícito es: “Si yo no hubiera tomado equinácea, mi resfriado habría durado más tiempo”.
¡Pero este no es el único contrafactual posible!
Para cada unidad asumimos que hay dos valores posteriores al tratamiento: \(Y_i(1)\) y \(Y_i(0)\).
\(Y_i(1)\) es el resultado que obtendría la unidad si recibe el tratamiento (\(T_i = 1\)).
\(Y_i(0)\) es el resultado que obtendría la unidad si no recibe el tratamiento (\(T_i = 0\)).
El efecto causal del tratamiento (relativo al control) es: \(\tau_i = Y_i (1) - Y_i(0)\)
Tenga en cuenta que hemos pasado a usar \(T\) para indicar nuestro tratamiento (cuyo efecto queremos saber). \(X\) se utilizará para las variables explicatorias.
\[Y_i = T_iY_i(1) + (1-T_i)Y_i(0)\]
| \(i\) | \(Y_i(1)\) | \(Y_i(0)\) | \(\tau_i\) |
|---|---|---|---|
| Andrei | 1 | 1 | 0 |
| Bamidele | 1 | 0 | 1 |
| Claire | 0 | 0 | 0 |
| Deepal | 0 | 1 | -1 |
\[\overline{\tau_i} = \frac{1}{N}\sum_{i = 1}^N (Y_i (1) -Y_i (0)) = \overline{Y_i (1) -Y_i (0)}\]
El efecto causal promedio también se conoce como efecto promedio del tratamiento (average treatment effect, ATE).
Explicaremos en más detalle cómo calcularlo después de discutir la asignación aleatoria del tratamiento en la siguiente sección.
\[\text{ATE}= \overline{Y_i (1) -Y_i (0)} = \overline{Y_i (1)} - \overline{Y_i (0)}\]
\[E_R [\overline {Y_i} | T_i = 1] = \overline{Y_i (1)}\].
\[E_R[\overline{Y_i}| T_i = 0] = \overline{Y_i (0)}\].
\[\hat{\overline{\tau_i}} = (\overline {Y_i(1)} | T_i = 1) - (\overline {Y_i (0)} | T_i = 0)\]
\[E_R[Y_i | T_i = 1] - E_R [Y_i | T_i = 0] = \overline {Y_i (1)} - \overline{Y_i (0)}\].
Cada hogar \(i\) tiene \(Y_i(0)\) y \(Y_i(1)\).
Para hacer afirmaciones causales con un experimento (o para juzgar si creemos en las afirmaciones de un estudio), necesitamos tres supuestos básicos:
Asignación aleatoria de sujetos al tratamiento, lo que implica que recibir el tratamiento es estadísticamente independiente de los resultados potenciales de los sujetos.
Supuesto de estabilidad del valor bajo tratamiento para cada unidad (SEVTU).
Excluibilidad, que significa que los valores potenciales de un sujeto responden solo al tratamiento definido y no a otros factores externos que pueden estar correlacionados con el tratamiento.
No interferencia: la resultado potencial de un sujeto refleja solo si ese sujeto recibe el tratamiento. No se ve afectado por cómo se asigna el tratamiento a otros sujetos.
Una violación clásica es el caso de las vacunas y sus efectos secundarios.
Imaginen que yo fui asignado a la condición de control (sin vacuna). Que me enferme (\(Y_i (0)\)), depende de la asignación al tratamiento de otras personas (en caso de que sí tomen la vacuna), ¡es como si tuviera dos \(Y_i(0)\) diferentes!
SEVTU (= Supuesto de estabilidad del valor bajo el tratamiento para cada unidad )
No hay variaciones ocultas del tratamiento
Digamos que el tratamiento es vacunarse, pero hay dos tipos de vacunas y tienen diferentes ingredientes.
Un ejemplo de una violación a este supuesto es que el que me enferme luego de haberme puesto la vacuna (\(Y_i(1)\)) dependa del tipo de vacuna que recibí. ¡Habría dos \(Y_i(1)\) diferentes!
Si la intervención es aleatoria, entonces quién recibe o no la intervención no está relacionado con las características personales de los posibles destinatarios.
La aleatorización hace que aquellos que fueron seleccionados al azar para no recibir la intervención sean buenos sustitutos del contrafactual para aquellos que fueron seleccionados al azar para recibir el tratamiento, y viceversa.
Nos debemos preocupar con esto si la intervención no fue aleatorizada (= un estudio observacional).
Estudios aleatorizados
Estudios observacionales
Discutir en grupos pequeños: Ayúdenme a diseñar el próximo proyecto para responder una de estas preguntas (o una de sus propias preguntas causales). Solamente planteen las características claves de dos diseños: uno observacional y el otro aleatorio.
Preguntas de investigación de ejemplo:
¿Aumentan la confianza y la coperación los proyectos de reconstrucción impulsados por la comunidad en Liberia? Ver: Informe 40 de políticas públicas de EGAP
¿Puede el monitoreo comunitario aumentar el uso de clínicas y disminuir la mortalidad infantil en Uganda? Puede ver: Informe 58 de políticas públicas de EGAP
Tareas:
Esbocen un diseño de un estudio observacional ideal (sin aleatorización, sin control por parte del investigador pero con recursos infinitos para la recopilación de datos). ¿Cuáles son las preguntas que haría un lector crítico frente a la afirmación de que sus resultado reflejan una relación causal?
Esbocen un diseño de estudio experimental ideal (que incluya aleatorización). ¿Cuáles son las preguntas que haría un lector crítico frente a la afirmación de que sus resultado reflejan una relación causal?
¿Cuáles fueron los componentes clave y las fortalezas y debilidades de los estudios aleatorizados?
¿Cuáles fueron los componentes clave y las fortalezas y debilidades de los estudios observacionales?
La aleatorización aporta una alta validez interna a un estudio: confianza en que hemos aprendido el efecto causal de un tratamiento en una variable de resultado.
Pero el hallazgo de un estudio en particular en un lugar particular y en un momento particular puede no ser válido en otros entornos (es decir, validez externa).
Esta es una preocupación general, no solo una preocupación para los estudios aleatorizados.
La iniciativa Metaketa de EGAP’s trabaja para acumular conocimientos mediante la planificación previa de un metanálisis de múltiples estudios que tienen una alta validez interna debido a la aleatorización.